# XPath，全称 XML Path
# Language，即 XML 路径语
# 言，它是一门在 XML 文档
# 中查找信息的语言。最初是用
# 来搜寻 XML 文档的，但同
# 样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。
from lxml import etree

html = etree.parse('./XPath_test.html', etree.HTMLParser())
result = html.xpath('//*')
print('//*'.center(50, '-'))
print(result)
print('//li'.center(50, '-'))
result = html.xpath('//li')
print(result)
print('//li/a'.center(50, '-'))
result = html.xpath('//li/a')
print(result)
# 调用 text()方法获取文本
print('调用 text()方法获取文本'.center(50, '-'))
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)
# @符号跟属性名直接获取节点的属性值
print('@符号跟属性名直接获取节点的属性值'.center(50), '-')
result = html.xpath('//li/a/@href')
print(result)
